加入 Gitee

与超过 1200万开发者一起发现、参与优秀开源项目，私有仓库也完全免费：）

克隆/下载

rms_norm.md 679 Bytes

提交于 2024-05-27 09:13 . !359 change ascendspeed to mindspeed

rms_norm融合优化

问题分析

rms_norm常见于LLaMA、LLaMA2、Baichuan等LLM模型中用于归一化，由于torch侧没有提供rms_norm算子的接口，因此在模型中通常是以自定义的形式出现，这种形式的执行效率相对较低。

MindSpeed对将rms_norm操作合并成一个算子，减少数据传输和临时存储。算子接口见link。

模型使用rms_norm作为归一化方式，脚本中设置了--normalization RMSNorm。

设置--used-fused-rmsnorm即可调用rms_norm融合算子。

开启融合算子可以节省内存，提升性能。

https://gitee.com/ascend/MindSpeed.git

git@gitee.com:ascend/MindSpeed.git

ascend

MindSpeed

master